查看原文
其他

聊聊Java String.intern 背后你不知道的知识

AlekseyShipilёv 高可用架构 2019-11-29

导读:String.intern是一个JDK中的常用方法,通常用于缓存字符串,优化内存使用,然而频繁使用该方法也会导致别的问题,本文从该方法的实现入手,深入分析了可能出现的问题和解决方案。


Java的 String类有个有意思的public方法:

public String intern()

返回标准表示的字符串对象。String类维护私有字符串池。

调用此方法时,如果字符串池已经包含等于此字符串对象的字符串(通过equals方法确定),则返回池中的字符串。 否则,将此String对象添加到池中,并返回对此String对象的引用。


这个功能为String提供了字符串池,我们可以使用它来优化内存。 但是,这有一个缺点:在OpenJDK中,String.intern()是本地方法,它实际上调用了JVM的相关方法来实现该功能。这样实现的原因是,当VM和JDK代码必须就特定String对象的标识达成一致时,String interning就必须是JDK-VM接口的一部分。


这样的实现意味着:

  1. 您需要在每个intern调用使用JDK-JVM接口,这会浪费CPU。

  2. 性能受本地HashTable实现的影响,可能落后于高性能Java版本,特别是在并发访问的情况下。

  3. 由于Java Strings是来自VM的引用,因此它们成为GC root set的一部分。 在许多情况下,这需要在GC停顿期间执行额外的工作。


吞吐量实验


我们可以构建简单的实验来说明问题。 使用HashMap和ConcurrentHashMap实现intern方法,这为我们提供了一个非常好的JMH基准:

该测试试图在很多字符串上执行intern方法,但实际的intern仅在第一次遍历循环时发生,之后只访问map中的字符串。 size参数用于控制我们intern的字符串数量,从而限制我们正在处理的字符串表大小。 对于intern来说,通常都这样使用。

使用JDK 8u131运行它:

可以看出 String.intern()明显更慢。慢的原因在于本地实现,这在perf record -g中清晰可见:

虽然JNI转换成本相当高,但似乎在StringTable实现上也花了相当多的时间。 使用 -XX:+PrintStringTableStatistics,将输出如下内容:

注意最后一行,平均每个bucket 16个元素表示已经过载。 更糟糕的是,字符串表不可调整大小(虽然有实验工作使它们可以调整大小,但是因为“其他原因”而被移除)。 通过设置更大的-XX:StringTableSize可能会减轻该问题:

然而这只能暂时缓解问题,因为你必须提前做好规划。 如果盲目地将String表大小设置为较大值,并且不使用它,则会浪费内存。 即使您使用很大的StringTable,JNI本地调用仍然会消耗CPU。


GC停顿实验


本地字符串表最大问题在于它是GC root的一部分。也就是说,它应该需要垃圾收集器进行特殊扫描/更新。 在OpenJDK中,这意味着在暂停期间额外工作。 实际上,对于Shenandoah(译者注:对于ZGC也如此),暂停主要依赖于GC root set大小,在String表中存在1M记录会导致以下结果:

因为我们在root set中添加了内容,每次暂停会增加13ms。

某些GC实现仅在完成重要操作时执行String表清理。 比如,如果不进行卸载类,从JVM角度来看清理String表是没有意义的(因为加载的类是intern字符串的主要来源)。 因此,此工作负载在G1和CMS中会也会表现出有趣的行为:

用CMS跑一遍:

看起来结果还可以。 遍历重载的字符串表需要一段时间。 蛋疼的事情会在使用-XX:-ClassUnloading禁用类卸载后发生。你猜猜接下来会发生什么:

FULL GC! 对于CMS,假设用户会调用System.gc(),使用ExplicitGCInvokesConcurrentAndUnloadsClasses会缓解这一情况。


意见


在假设改进内存占用空间或低级==优化的情况下,我们讨论了实现intern的方法。有关Java String的更多详细信息,可以参考我的演讲“java.lang.String Catechism”。

对于OpenJDK,String.intern()是本机JVM字符串表的代理,使用它需要注意:吞吐量,内存占用,暂停时间等问题。 很容易低估这些问题的影响。 手动控制的intern工作更加可靠,因为它们在Java端工作,只是普通Java对象,通常更容易调整大小,并且在不再需要时也可以完全丢弃。 GC辅助字符串去重复数据(http://openjdk.java.net/jeps/192)确实可以减少很多问题。

几乎在在我们进行每个项目中,从热路径中删除String.intern(),或者用手动方式替代它,都有很大的性能提升。 不要无脑使用String.intern(),好吗?


原文地址:

https://shipilev.net/jvm/anatomy-quarks/10-string-intern/

本文作者Aleksey Shipilёv,由方圆翻译。转载本文请注明出处,欢迎更多小伙伴加入翻译及投稿文章的行列,详情请戳公众号菜单「联系我们」。


参考阅读:



技术原创及架构实践文章,欢迎通过公众号菜单「联系我们」进行投稿。转载请注明来自高可用架构「ArchNotes」微信公众号及包含以下二维码。


高可用架构

改变互联网的构建方式


长按二维码 关注「高可用架构」公众号


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存